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Die folgenden Angaben sind den vom Anmelder eingereichten Unterlagen entnommen 

Prufungsantrag gem. § 44 PatG ist gestellt 

© Prozessor und Verfahren zum Ausfuhren von Befehlen an gepackten Daten 

(§) Es werden ein Verfahren und eine Vorrichtung zum ■ 

Ausfuhren von skalarer Gepackte-Daten-Befehle zur Ver- 
fugung gestellt. Gemafc einem Aspekt der Erfindung um- 
faBt ein Prozessor eine Mehrzahl von Registern, eine mit 
der Mehrzahl von Registern gekoppelte Registerumbe- 
nennungseinheit, einen mit der Registerumbenennungs- 
einheit gekoppelten Decodierer und eine mit dem Deco- 
dierer gekoppelte Ausfuhrungseinheit partieller Breite. 
Die Registerumbenennungseinheit stellt eine Architektur- 
registerdatei zur Verfugung, um gepackte Datenoperan- 
den zu speichern, die jeweils eine Mehrzahl von Datenele- 
menten enthalten. Der Decodierer ist so konfiguriert, daft 
er einen ersten und einen zweiten Befehlssatz decodiert, 
wobei jeder Befehl wenigstens ein Register in der Archi- 
tekturregisterdatei spezifiziert. Jeder der Befehle des er- 
• sten Befehlssatzes spezifiziert Operationen, die an samtli- 
chen Datenelementen ausgefuhrt werden sollen. Im Un- 
terschied dazu spezifiziert jeder der Befehle des zweiten 
Befehlssatzes Operationen, die nur an einer Untermenge 
der in dem wenigstens einen spezifizierten Register ge- 
speicherten Datenelemente durchgefuhrt werden sollen. 
Die Ausfuhrungseinheit partieller Breite ist so konfigu- 
riert, daft sie sowohl von dem ersten als auch von dem 
zweiten Befehlssatz spezifizierte Operationen ausfuhrt. 
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, Beschreibung 

Die Erfindung bezieht sich auf einen Prozessor mit einer 
Mehrzahl von Registem und einer Registerumbenennungs- 
einheit, die mit der Mehrzahl von Registem gekoppelt ist, 5 
urn eine Architekturregisterdatei zum Speichem gepackter 
Datenoperanden zur Verfligung zu stellen, wobei jeder der 
gepackten Datenoperanden eine Mehrzahl von Datenele- 
menten aufweist Ferner bezieht sich die Erfindung auf ein 
Verfahren zum AusfUhren eines Makrobefehls in einem sol- 10 
chen Prozessor. Dabei verwendet der Prozessor beispiels- 
weise die SIMD-Technologie. 

Multimedia-Anwendungen, wie beispielsweise 2D/3D- 
Grafikanwendungen, Bildverarbeitung, Videokompression/ 
Dekompression, Spracherkennungsalgorithmen und Audio- 15 
verarbeitungen erfordern oftmals, daB die gleiche Operation 
an einer groBen Anzahl von Datenelementen ausgefUhrt 
werden soli (was als "Datenparallelitat") bezeichnet wird. 
Jede Art von Multimediaanwendungen implementiert typi- 
scherweise einen oder mehrere Algorithmen, die eine An- 20 
zahl von Gleitkomma- oder Ganzzahloperationen, wie bei- 
spielsweise Addieren (ADD) oder Multiplizieren (MUL) er- 
fordern. Indem Makrobefehle zur Verfugung gestellt wer- 
den, deren Ausfiihrung einen Prozessor veranlaBt, die glei- 
che Operation an mehreren Datenelementen parallel auszu- 25 
fuhren (Einzelbefehl-Mehrfachdaten (SIMD)-Technologie, 
wie sie beispielsweise von der Pentium^-Prozessor-Archi- 
tektur und dem MMX-Befehlssatz verwendet wird), wurde 
eine signifikante Verbesserung bei der Leistung von Multi- 
media-Anwendungen ermoglicht (Pentium® und MMX™ 30 
sind eingetragene Marken beziehungsweise Handelsbe- 
zeichnungen der Intel Corporation in Santa Clara, Kalifor- 
nien) Die SIMD-Technologie ist insbesondere fur solche 
Systeme geeignet, die gepackte Datenformate vorsehen. Ein 
gepacktes Datenformat ist ein solches, bei dem die Bits in 35 
einem Register logisch in eine Anzahl von Datenelementen 
fester GroBe unterteilt sind, wobei jedes Datenelement einen 
separaten Wert reprasentiert. Beispielsweise kann ein 64- 
Bit-Register in vier 16-Bit-Elemente aufgeteilt werden, von 
denen jedes einen separaten 16-Bit- Wert reprasentiert. Ge- 40 
packte-Daten-Befehle konnen dann separat jedes Element in 
diesen gepackten Daten parallel verarbeiten. 

Es wird auf Fig. 1 Bezug genommen, in der ein Beispiel 
eines Gepackte-Daten-Befehls veranschaulicht ist. Bei die- 
sem Beispiel addiert ein gepackter ADD-Befebl (beispiels- 45 
weise ein SIMD-ADD-Befehl) zugehdrige Datenelemente 
eines ersten gepackten Datenoperanden X und eines zweiten 
gepackten Datenoperanden Y, urn ein Ergebnis Z gepackter 
Daten zu erzeugen, d. h. Xo+Yo=Zo Xi+Yi=Zi X 2 +Y 2 =Z2 
und X 3 +Y3=Z3. Das Packen vieler Datenelemente in ein Re- 50 
gister bzw. einen Speicherplatz und das Benutzen einer par- 
allelen Hardware- Ausfiihrung gestattet es der SIMD-Archi- 
tektur, mehrere Operationen gleichzeitig durchzufuhren, 
was zu einer signifikanten Leistungsverbesserung fiihrt. 
Beispielsweise kdnnen bei diesem Beispiel vier einzelne Er- 55 
gebnisse in derselben Zeit erlangt werden, die zuvor erfor- 
derlich war, urn ein einziges Ergebnis zu gewinnen. 

Wahrend die durch die SIMD- Architektur erreichten Vor- 
teile offensichtlich sind, verbleiben Situationen, in welchen 
es wtinschenswert ist, einzelne Ergebnisse ftir nur eine Un- 60 
termenge der gepackten Datenelemente zurtickzugeben. 
Darin besteht die der Erfindung zugrundeliegende Aufgabe. 

Diese Aufgabe wird erfindungsgemaB durch einen Pro- 
zessor mit den Merkmalen des Patentanspruchs 1 bzw. ein 
Verfahren mit den Merkmalen des Patentanspruchs 6gel6st. 65 

Es werden ein Verfahren und eine Vorrichtung (Prozes- 
sor) zum Ausftihren von Gepackte-Daten-Befehlen fiir eine 
partielle Breite angegeben. GemaB einem Aspekt der Erfin- 



dung enthait ein Prozessor eine Mehrzahl von Registem, 
eine mit der Mehrzahl von Registem gekoppelte Register- 
umbenennungseinheit, einen mit der Registerumbenen- 
nungseinheit gekoppelten Decodierer und eine mit dem De- 
codierer gekoppelte Ausfiihrungseinheit partieller Breite. 
Die Registerumbenennungseinheit stelit eine Architekturre- 
gisterdatei zur Verfiigung, urn gepackte Datenoperanden zu 
speichem, von denen jeder eine Mehrzahl von Datenele- 
menten enthait Der Decodierer ist so konfiguriert, daB er ei- 
nen ersten und einen zweiten Befehlssatz decodieren kann, 
wobei jeder Befehl wenigstens ein Register in der Architek- 
turregisterdatei angibt. Jeder der Befehle des ersten Befehls- 
satzes spezifiziert Operationen, die an stotlichen der in dem 
wenigstens einen spezifizierten Register gespeicherten Da- 
tenelemente ausgefUhrt werden sollen. Im Unterschied dazu 
spezifiziert jeder der Befehle des zweiten Befehlssatzes 
Operationen, die nur an einer Untermenge der in dem we- 
nigstens einen spezifizierten Register gespeicherten Daten- 
elemente ausgefUhrt werden sollen. Die Aiisftihrungseinheit 
partieller Breite ist so konfiguriert, daB sie von sowohl dem 
ersten als auch von dem zweiten Satz von Befehlen spezifi- 
zierte Operationen ausfuhren kann. 

Vorteilhafte Weiterbildungen der Erfindung sind in den 
Unteranspruchen gekennzeichnet. 

Im folgenden wird die Erfindung anhand von in der 
Zeichnung beschriebenen Ausfuhrungsbeispielen naher er- 
lautert. In der Zeichnung zeigen: 

Fig. 1 einen gepackten ADD-Befehl, der zugehorige Da- 
tenelemente aus einem ersten gepackten Datenoperanden 
und einem zweiten gepackten Datenoperanden addiert. 

Fig, 2A ist eine vereinfachte Blockdarstellung, die ein 
beispielhaftes Computersystem nach einem Ausfuhrungs- 
bcispiel der Erfindung veranschaulicht. 

Fig. 2B ist eine vereinfachte Blockdarstellung, die einen 
Beispielsatz logischer Register gemaB einem AusfUhrungs- 
beispiel der Erfindung veranschaulicht. 

Fig. 2C ist eine vereinfachte Blockdarstellung, die Bei- 
spielsatze logischer Register gemaB einem weiteren Ausfuh- 
rungsbeispiel der Erfindung veranschaulicht. 

Fig. 3 ist ein Ablaufdiagramm, das die BefehlsausfUhrung 
nach einem AusfUhrungsbeispiel der Erfindung veranschau- 
licht. 

Fig. 4 veranschaulicht das Ergebnis der Ausfiihrung eines 
Befehls fur eine partielle Breite gepackter Daten gemaB den 
verschiedenen Ausflihrungsbeispielen der Erfindung. 

Fig. 5A veranschaulicht eine Schaltungsanordnung zum 
Ausfuhren eines Befehls fur gepackte Daten voller Breite 
und fur gepackte Daten partieller Breite gemaB einem Aus- 
fUhrungsbeispiel der Erfindung. 

Fig. 5B veranschaulicht eine Schaltungsanordnung zum 
Ausftihren von Befehlen an gepackten Daten voller Breite 
und partieller Breite gemaB einem weiteren AusfUhrungs- 
beispiel der Erfindung. 

Fig. 5C veranschaulicht eine Schaltungsanordnung zum 
Ausfuhren von Befehlen an gepackten Daten voller Breite 
und partieller Breite gemaB einem weiteren AusfUhrungs- 
beispiel der Erfindung. 

Fig. 6 veranschaulicht eine ADD-AusfUhrungseinheit 
und eine MUL- Ausfiihrungseinheit, die in der Lage sind, als 
vier separate ADD- AusfUhrungseinheiten bzw. vier separate 
MUL-Ausfiihrungseinheiten zu arbeiten, gemaB einer bei- 
spielhaften Prozessorimplementierung von SIMD. 

Fig. 7A-7B veranschaulichen eine Operation an gepack- 
ten Daten voller Breite und eine Operation an gepackten Da- 
ten partieller Breite, die in einer "gestaffelten" Weise ausge- 
fUhrt werden. 

Fig. 8A veranschaulicht eine Schaltungsanordnung inner- 
halb eines Prozessors, die auf Operanden voller Breite aus 
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lcgischen Registeni zugreift, wahrend sie jeweils Operatio- 
nen an der halben Breite der Operanden ausfiihrt. 

Fig. 8B ist ein Zeitdiagramm, das die Schaltungsanord- 
nung gemSB Fig. 8A writer veranschaulicht. 

Fig. 9 veranschaulicht ein Ausfiihrungsbeispiel einer Au- 
Ber-der-Reihe-Pipeline zum Ausfiihren von Operationen an 
Operanden in einer "gestaffelten" Weise, indem ein Makro- 
befehl in eine Mehrzahl von Mikrobefehlen konvertiert 
wird, die jeweils einen Abschnitt des Operanden voller 
Breite bearheiten. 

Fig. 10 ist ein Zeitschaubild, das das in Fig. 9 beschrie- 
bene Ausfiihrungsbeispiel weiter veranschaulicht. 

Fig. 11 ist ein Blockschaltbild, das die Dekodierlogik ver- 
anschaulicht, die benutzt werden kann, urn die decodierende 
Veraibeitung gemSB einem Ausfiihrungsbeispiel der Erfin- 
dung durchzufiihren. 

Es werden ein Verfahren und eine Vorrichtung zum Aus- 
fUhren von Befehlen an gepackten Daten partieller Breite 
beschrieben. Hieibei wird die Bezeichnung "Befehl an ge- 
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Compiler, skalaie SIMD-Befehle aus skalarem Code zu er- 
zeugen. Wenn dann die Entwickler eikennen, dafi Ab- 
schnitte ihrer Software unter Verwendung von SIMD-Be- 
fehlen optimieit werden kdnnen, konnen sie schrittweise 
Vorteil aus den Befehlen fiir gepackte Daten Ziehen. Selbst- 
verstandlich ist es wahrscheinlich, dafi die SIMD-Tfechnolo- 
gie benutzende Computersy steme auBerdem abwfirtskompa- 
tibel bleiben, indem sie SISD-Befehle ebenso untersttitzen. 
Jedoch machen es viele jiingere Architekturverbesserungen 
und andere hier erorterte Faktoren voiteilhaft fiir Entwick- 
ler, zur SIMD-Technologie iiberzugehen und sie auszunut- 
zen, selbst wenn zunSchst nur skalare SIMD-Befehle ver- 
wendet werden. 

Eine weitere Rechtfertigung fur das Vorsehen von Befeh- 
len fiir gepackte Daten partieller Breite besteht in den vielen 
Vorteilen, die erreicht werden kOnnen, indem nur eine Un- 
termenge des Operanden voller Breite beaibeitet wird, ein- 
schlieBlich des reduzierten Stromverbrauchs, der erhdhten 
Geschwindigkeit, eines sauberen Ausnahmemodells und ei- 



packten Daten voller Breite" verwendet, um einen Befehl an 20 ner erhShten Speicherung. Wie unten erlSutert wird, k6nnen 



gepackten Daten (z. B. einen SIMD-Befehl) zu bezeichnen, 
der an samtlichen Datenelementen wenigstens eines gepack- 
ten Datenoperanden ausgefuhrt wird. Im Unterschied dazu 
bezeichnet der Begriff "Befehl an gepackten Daten partieller 
Breite" ganz allgemein einen Befehl an gepackten Daten, 
der nur eine Untermenge der Datenelemente des wenigstens 
einen gepackten Datenoperanden verarbeiten soli und der 
ein gepacktes Datenergebnis (beispielsweise an eine Regi- 
sterdatei gepackter Daten) zuriickgibt. Beispielsweise kann 



auf der Grundlage eines mit dem Befehl fur gepackte Daten 
partieller Breite zur Verfugung gestellten Hinweises Strom- 
einsparungen erreicht werden, indem selektiv diejenigen 
Hardwareeinheiten abgeschaltet werden, die zum Ausfiihren 
25 der gegenwartigen Operation nicht erforderlich sind. 

Eine weitere Situation, in welcher es nicht erwiinscht ist, 
einen Befehl fur gepackte Daten zu zwingen, einzelne Er- 
gebnisse fur jedes Paar von Datenelementen zuriickzuge- 
ben, umfaBt arithmetische Operationen in einer Umgebung, 



ein skalarer SIMD-Befehl nur ein Ergebnis einer Operation 30 die eine Hardware partieller Breite zur Verfugung stellt. In- 



zwischen dem am geringsten bewerteten Paar von Datenele- 
menten der gepackten Datenoperanden erfordern. Bei die- 
sem Beispiel konnen die verbleibenden Datenelemente des 
gepackten Datenergebnisses unberiicksichtigt bleiben, da 
sie keinen EinfluB auf den skalaren SIMD-Befehl haben 
(beispielsweise konnen die verbleibenden Datenelemente 
beliebigen Inhalts sein). GemaB den verschiedenen Ausfiih- 
nmgsbeispielen der Erfindung konnen Ausfiihrungseinhei- 
ten so konfiguriert werden, daB sie effizient sowohl Befehle 
an gepackten Daten voller Breite (z. B. SIMD-Befehle) als 
auch einen Satz von Befehlen an gepackten Daten partieller 
Breite (z. B. skalare SIMD-Befehle) unterbringen kSnnen. 

In der folgenden detaillierten Beschreibung werden aus 
Griinden der Erlfiuterung zahlreiche spezielle Details ange- 
geben, um ein besseres Verstandnis der Erfindung zu errei- 
chen. Fiir einen Fachmann ist es jedoch klar, daB diese spe- 
ziellen Details nicht verwendet werden miissen, um die Er- 
findung auszuflihren. An anderen Stellen werden gut be- 
kannte Einrichtungen, Strukturen, Schnittstellen und Pro- 
zesse nicht oder nur in Blockdarstellung gezeigt. 

Berechtigung von Befehlen an gepackten Daten partieller 
Breite 

Betrachtet man den Umfang der Software, die fur skalare 
Architekturen (z.B. Einzelbefehl-Einzeldaten(SISD)-Ar- 
chitekturen), die skalare Operationen an Gleitkommadaten 
einfacher Genauigkeit, Gleitkommadaten doppelter Genau- 
igkeit und Ganzzahldaten benutzen, geschrieben worden ist, 
so ist es wiinschenswert, Entwicklem die Option zur Verfli- 
gung zu stellen, ihre Software auf Architekturen zu portie- 
ren, die Befehle an gepackten Daten unterstiitzt, wie bei- 
spielsweise SIMD- Architekturen, ohne daB deren Software 
umgeschrieben werden muB und/oder neue Befehle gelernt 



folge der Kosten- und/oder Chip-Einschrankungen ist es ub- 
lich, fiir bestimmte arithmetische Operationen, wie bei- 
spielsweise das Dividieren, nicht die vollstandige Unterstut- 
zung zur Verfugung zu stellen. Ihrer Natur nach ist die Divi- 
sionsoperation sehr lang, selbst wenn Hardware voller 
Breite (beispielsweise eine Eins-zu-eins-Korrespondenz 
zwischen Ausfuhrungseinheiten und Datenelementen) im- 
plementiert ist. Folglich wird in einer Umgebung, die nur 
Operationen an gepackten Daten voller Breite unterstutzt, 
wahrend Hardware partieller Breite zur Verfugung gestellt 
wird, die Verzogerung noch langer. Wie unten naher veran- 
schaulicht wird, kann eine Operation fiir gepackte Daten 
partieller Breite, wie beispielsweise eine Divisionsoperation 
fiir gepackte Daten partieller Breite, es selektiv bestimmten 
Abschnitten ihrer Operanden gestatten, die Divisionshard- 
ware zu umgehen. Auf diese Weise wird kein Leistungs- 
nachteil dadurch verursacht, dafi nur eine Untermenge der 
Datenelemente in den gepackten Datenoperanden bearbeitet 
wird. 

Zusfitzlich kSnnen Ausnahmen, die in Verbindung mit un- 
wesentlichen Datenelementen entstehen, eine Konfusion fiir 
den Entwickler und/oder eine InkompatibiMt zwischen 
SISD- und SIMD-Maschinen verursachen. Folglich ist es 
vorteilhaft, Ausnahmen nur fur diejenigen Datenelemente 
zu berichten, fiir die der Befehl gedacht ist. Eine Untersttit- 
zung von Befehlen fiir gepackte Daten partieller Breite ge- 
stattet, daB ein vorhersagbares Ausnahmemodell erreicht 
wird, indem das Ausldsen von Ausnahmebedingungen auf 
diejenigen begrenzt wird, die in Verbindung mit solchen Da- 
60 tenelementen auftreten, die bearbeitet werden, oder bei wel- 
chen durch unwesentliche Datenelemente erzeugte Ausnah- 
men wahrscheinlich eine Konfusion oder Inkompatibilitat 
zwischen SISD- und SIMD-Maschinen verursachen wtirde. 
SchlieBlich stellen bei Ausfiihrungsbeispielen, bei denen 
werden miissen. Durch die Schafiung von Befehlen an ge- 65 Abschnitte des gepackten Zieldatenoperanden nicht im Er- 
packten Daten partieller Breite kann eine einfache Cberset- gebnis der Ausfuhrung einer Operation fiir gepackte Daten 
zung alten skalaren Code in skalaren gepackten Datencode partieller Breite verfdlscht werden, Befehle fiir gepackte Da- 
transftmnieren. Beispielsweise wfire es sehr leicht fiir einen ten partieller Breite efifektiv einen zusatzlichen Register- 
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r?,um zum Speichem von Daten zur Verfiigung. Wenn bei- 
spielsweise an dem unteren Abschnitt des gepackten Daten- 
operanden eine Operation ausgefiihrt wild, kGnnen Daten im 
oberen Abschnitt gespeichert werden und umgekehit 

Ein Beispielcomputersystem 

Fig. 2A ist ein vereinfachtes Blockschaltbild, das ein Bei- 
spielcomputersystem gemaB einem Ausfiihrungsbeispiel der 
Erfindung veranschaulicht. Bei dem dargestellten Ausfiih- 
rungsbeispiel enthalt ein Computersystem 200 einen Prozes- 
sor 205, eine Speichereinrichtung 210 und einen Bus 215. 
Der Prozessor 205 ist mit der Speichereinrichtung 210 durch 
den Bus 215 gekoppelt. Zusatzlich sind eine Reihe von Be- 
nutzereingabe/Ausgabeeinrichtungen, wie beispielsweise 
eine Tastatur 220 und eine Anzeige 225, ebenfalls mit dem 
Bus 215 gekoppelt Das Computersystem 200 kann darUber 
hinaus mit einem Netzwerk 230 tiber den Bus 215 gekoppelt 
sein. Der Prozessor 205 reprasentiert eine zentrale Verarbei- 
tungseinheit einer beliebigen Architektur, wie beispiels- 
weise einer CISC-, RISC-, VLIW- oder Hybrid-Architektur. 
Daruber hinaus kann der Prozessor 205 auf einem oder meh- 
reren Chips implementiert sein. Die Speichereinrichtung 
210 reprasentiert einen oder mehrere Mechanismen zum 
Speichem von Daten. Beispielsweise kann die Speicherein- 
richtung 210 einen Nur-Lese-Speicher (ROM), einen Spei- 
cher mit wahlfreiem Zugriff (RAM), ein magnetisches Plat- 
tenspeichermedium, ein optisches Speichermedium, Flash- 
Speicherbauelemente und/oder andere maschinenlesbare 
Medien umfassen. Der Bus 215 reprasentiert einen oder 
mehrere Busse (z. B. AGP, PCI, ISA, X-Bus, EISA, VESA 
usw.) und Brucken (die auch als Bussteuereinrichtungen be- 
zeichnet werden). Wahrend dieses Ausfuhrungsbeispiel in 
Bezug auf ein Einzelprozessor-Computersystem beschrie- 
ben wird, ist es klar, daB die Erfindung auch in einem Multi- 
Prozessor-Computersystem implementiert werden kann. 
AuBerdem ist, obwohl das vorliegende Ausfuhrungsbeispiel 
in Bezug auf ein 32-Bit- und ein 64-Bit-Computersystem 
beschrieben wird, die Erfindung nicht auf ein derartiges 
Computersystem begrenzt. 

Fig. 2A veranschaulicht zusatzlich, daB der Prozessor 205 
eine Befehlssatzeinheit 260 enthalt. Selbstverstandlich ent- 
halt der Prozessor 205 zusatzliche Schaltungen; jedoch sind 
derartige zusatzliche Schaltungen nicht fur das Verstandnis 
der Erfindung erforderlich. Auf jeden Fall enthalt die Be- 
fehlssatzeinheit 260 die Hardware und/oder Firmware zum 
Decodieren und Ausfuhren eines oder mehrerer Befehls- 
satze. Bei dem dargestellten Ausfuhrungsbeispiel enthalt die 
Befehlssatzeinheit 260 eine Dekodier/Ausfuhnmgs-Einheit 
275. Die Dekodiereinheit dekodiert Befehle, die von dem 
Prozessor 205 empfangen worden sind, in einen oder meh- 
rere Mikrobefehle. Die Ausfiihrungseinheit fiihrt in Erwide- 
rung der von der Dekodiereinheit empfangenen Mikrobe- 
fehle geeignete Operationen durch. Die Dekodiereinheit 
kann unter Verwendung einer Reihe unterschiedlicher Me- 
chanismen (beispielsweise einer Nachschlagetabelle, einer 
Hardware- Implementierung, einer PLA etc.) implementiert 
werden. 

Bei dem vorliegenden Beispiel ist eine Dekodier/Ausfiih- 
rungs-Einheit 275 gezeigt, die einen Befehlssatz 280 rat- 
halt, der sowohl Befehle fiir gepackte Daten voller Breite als 
auch Befehle fiir gepackte Daten partieller Breite enthalt. 
Diese Befehle fiir gepackte Daten konnen, wenn sie ausge- 
ftihrt werden, den Prozessor 205 veranlassen, gepackte 
Gleitkommaoperationen voller/partieller Breite und/oder 
gepackte Ganzzahloperationen voller/partieller Breite 
durchzuflihren. Zusatzlich zu den Befehlen fiir gepackte Da- 
ten kann der Befehlssatz 280 weitere in vorhandenen Mikro- 



prozessoren zu findende Befehle enthalten. Beispielsweise 
unterstiltzt der Prozessor 205 bei einem Ausfuhrungsbei- 
spiel einen Befehlssatz, der mit der Intel-32-Bit-Architektur 
(IA-32) und/oder der Intel-64-Bit- Architektur (IA-64) kom- 
5 patibelist 

AuBerdem ist in der Befehlssatzeinheit 260 eine Spei- 
chereinheit 285 enthalten. Die Speichereinheit 285 kann ei- 
nen oder mehrere Satze von Architekturregistem (auch als 
logische Register bezeichnet), enthalten, die von dem Pro- 
io zessor 205 zum Speichem von Informationen, einschliefl- 
lich Gleitkommadaten und gepackten Gleitkommadaten, be- 
nutzt werden. Zusatzlich ktinnen weitere logische Register 
zum Speichem von Ganzzahldaten, gepackten Ganzzahlda- 
ten und verschiedenen Steuerdaten, wie beispielsweise einer 

15 Anzeige fiir die Spitze des Stapelspeichers und dergleichen, 
enthalten sein. Die Begriffe Architekturregister und logi- 
sche Register werden im folgenden verwendet, urn auf das 
Konzept der Art und Weise Bezug zu nehmen, auf welche 
Befehle einen Speicherbereich angeben, der einen einzelnen 

20 Operanden enthalt. So kann ein logisches Register in Hard- 
ware unter Verwendung einer beliebigen Anzahl gut be- 
kannter,Techniken implementiert sein, einschlieBlich eines 
speziellen physikalischen Registers, eines oder mehrerer dy- 
namisch unter Verwendung eines Registerumbenennungs- 

25 mechanismus (detaillierter unten beschrieben) zugewiese- 
ner physikalischer Register, etc. In jedem Fall reprasentiert 
ein logisches Register die kleinste Einheit eines durch einen 
Befehl fur gepackte Daten adressierbaren Speichers. 
Bei dem dargestellten Ausfuhrungsbeispiel ist in der 

30 Speichereinrichtung 210 ein Betriebssystem (OS) 235 und 
eine Routine fur gepackte Daten 240 zur Ausfuhrung durch 
das Computersystem 200 gespeichert. Die Routine 240 fiir 
gepackte Daten ist eine Sequenz von Befehlen, die einen 
oder mehrere Befehle fiir gepackte Daten, wie beispiels- 

35 weise skalara SIMD-Befehle oder SIMD-Befehle enthalten 
kann. Wie unten naher erortert wird, gibt es Situationen, ein- 
schlieBlich Geschwindigkeits-, Stromverbrauchs- und Aus- 
nahmebehandlung, in denen es erwiinscht ist, eine Opera- 
tion nur an einer Untermenge von Datenelementen in einem 

40 gepackten Datenoperanden oder einem Paar gepackter Da- 
tenoperanden durchzufuhren (oder nur fur diese Unter- 
menge einzelne Ergebnisse zuriickzugeben). Folglich ist es 
fur den Prozessor 205 vorteilhaft, in der Lage zu sein, zwi- 
schen Befehlen fiir gepackte Daten voller Breite und Befeh- 

45 len fiir gepackte Daten partieller Breite unterscheiden zu 
k&nnen und diese entsprechend ausfilhren zu kdnnen. 

Fig. 2B ist eine vereinfachte Blockdarstellung, die Bei- 
spielsatze von logischen Registem gemaB einem Ausfuh- 
rungsbeispiel der Erfindung veranschaulicht. Bei diesem 

50 Beispiel enthalt die Speichereinheit 285 eine Mehrzahl ska- 
larer Gleitkommaregister 291 (eine skalare Registerdatei) 
und eine Mehrzahl gepackter Gleitkommaregister 292 (eine 
Registerdatei fiir gepackte Daten). Die skalaren Gleitkom- 
maregister 291 (z. B. die Register R0-R7) k5nnen als eine 

55 als Stapel referenzierte Registerdatei implementiert sein, 
wenn Gleitkommabefehle so ausgefiihrt werden, dafi sie 
kompatibel mit der vorhandenen, fiir die Intel-Architektur 
gescbriebenen Software sein sollen. Bei alternativen Aus- 
fiihrungsbeispielen jedoch kdnnen die Register 291 als eine 

60 flache Registerdatei behandelt werden. Bei dem dargestell- 
ten Ausfuhrungsbeispiel ist jedes der gepackten Gleitkom- 
maregister (z.B. XMM0-XMM7) als ein einzelnes logi- 
sches 128-B it-Register implementiert Es ist jedoch klar, 
daB breitere oder schmalere Register benutzt werden kon- 

65 nen, urn an eine Implementierung angepaBt zu sein, die 
mehr oder weniger Datenelemente oder groBere oder klei- 
nere Datenelemente verwendet. Zusatzlich kdnnen mehr 
oder weniger packte Gleitkommaregister 292 vorgesehen 



* ) DE 199 h 

7 

sqn. Ahnlich wie die skalaren Gleitkommaregister291 kfln- 
nen die gepackten Gleitkommaregister 292 entweder als sta- 
pelreferenzierte Registerdatei oder als flache Registerdatei 
implementiert werden, wenn die gepackten Gleitkommabe- 
fehle ausgefOhrt werden < 

Fig. 2C ist eine vereinfachte Blockdarstellung, die bei- 
spielhafte S&tze logischer Register nach einem weiteren 
Ausfuhrungsbeispiel der Erfindung veranschaulicht. Bei 
diesem Beispiel enthSit die Speichereinheit 285 wiederum 
eine Mehrzahl skalarer Gleitkommaregister 291 (eine ska- ic 
lare Registerdatei) und eine Mehrzahl gepackter Gleitkom- 
maregister 292 (eine Registerdatei gepackter Daten). Jedoch 
werden bei dem dargestellten Ausfuhrungsbeispiel sfimtli- 
che gepackten Gleitkommaregister (z. B. XMM0-XMM7) 
als einander entsprechende Paare hoher 293 und niedriger 15 
Register 294 implementiert. Wie unten nBher ertirtert wer- 
den wird, ist es fiir die Zwecke der Befehlsdekodierung vor- 
teilhaft, den logischen RegisteradreBraum ftir die gepackten 
Gleitkommaregister 292 so zu organisieren, dafi sich die 
Paare hoher und niedriger Register durch ein einzelnes Bit 20 
unterscheiden. Beispielsweise konnen die hohen und niedri- 
gen Abschnitte von XMMo~XMM 7 durch das MSB (most 
significant bit) differenziert werden. Vorzugsweise ist jedes 
der gepackten Gleitkommaregister 291 breit genug, um vier 
32-Bit-Gleitkommadaten-Elemente einfacher Genauigkeit 25 
aufzunehmen. Wie oben jedoch konnen breitere oder 
schmalere Register benutzt werden, um an Implementierun- 
gen angepafit zu werden, die mehr oder weniger Datenele- 
mente bzw. groBere oder kleinere Datenelemente verwen- 
den. Zusatzlich konnen, wahrend die logischen gepackten 30 
Gleitkommaregister 292 bei diesem Beispiel jeweils einan- 
der entsprechende Paare von 64-Bit-Registern aufweisen, 
bei altemativen Ausfiihrungsbeispielen s3mtliche gepackten 
Gleitkommaregister eine beliebige Anzahl von Registem 
umfassen. 35 

Ubersicht iiber die Befehlsausfiihrung 

Nachdem ein Beispielcomputersystem beschrieben wor- 
den ist, in welchem ein Ausfuhrungsbeispiel der Erfindung 40 
implementiert werden kann, wird jetzt die Befehlsausfuh- 
rung beschrieben. 

Fig. 3 ist ein Ablaufdiagramm, das die Befehlsausfiihrung 
gemaB einem Ausfuhrungsbeispiel der Erfindung veran- 
schaulicht. Im Schritt 310 wird ein Befehl durch den Prozes- 45 
sor 205 empfangen. Im Schritt 320 wird die Verarbeitung 
auf der Grundlage der Art des Befehls (ob es ein Befehl fur 
gepackte Daten partieller Breite (zum Beispiel ein skalarer 
SIMD-Befehl) oder ein Befehl fur gepackte Daten voller 
Breite (zum Beispiel ein SIMD-Befehl) ist) entweder mit 50 
dem Schritt 330 oder dem Schritt 340 fortgesetzt. Ublicher- 
weise wird in der Dekodiereinheit die Art des Befehls auf 
der Grundlage der in dem Befehl enthaltenen Informationen 
bestimmt. Beispielsweise kftnnen die Informationen einen 
Prfifix oder Suffix enthalten, der an den Befehlscode ange- 55 
hSngt oder iiber einen Direktdatenwert zur Verfugung ge- 
stellt wird, um anzuzeigen, ob die zugehdrige Operation an 
samtlichen oder einer Untermenge der Datenelemente des 
gepackten Datenoperanden bzw. der gepackten Datenope- 
randen ausgefuhrt werden soil. Auf diese Weise kann der 60 
gleiche Befehlscode sowohl fur Operationen an gepackten 
Daten voller Breite als auch fur Operationen an gepackten 
Daten partieller Breite verwendet werden. Alternativ kann 
ein Satz von Befehlscodes ftir Operationen an gepackten 
Daten partieller Breite und ein anderer Befehlscodesatz fur 65 
Operationen an gepackten Daten voller Breite verwendet 
werden. 

In jedem Fall wird dann, wenn der Befehl ein herkommli- 
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cher Befehl fllr gepackte Daten voller Breite ist, im Schritt 
330 ein gepacktes Datenergebnis bestimmt, indem die von 
dem Befehl spezifizierte Operation an jedem der Datenele- 
mente in dem bzw. den Operanden ausgefUhrt wird Wenn 
jedoch der Befehl ein Befehl fur gepackte Daten partieller 
Breite ist, dann wird im Schritt 340 ein erster Abschnitt des 
Ergebnisses bestimmt, indem die von dem Befehl spezifi- 
zierte Operation an einer Untermenge der Datenelemente 
durchgeflihrt wird und indem der Rest des Ergebnisses auf 
einen oder mehrere vorgegebene Werte gesetzt wird. Bei ei- 
nem Ausfuhrungsbeispiel ist der vorgegebene Wert der Wat 
der jeweils einander entsprechenden Datenelemente in ei- 
nem der Operanden. Das heifit, es kdnnen Datenelemente 
von den Datenelementen eines der Operanden zu den je- 
weils entsprechenden Datenelementen in dem gepackten 
Datenergebnis "durchgeleitet" werden. Bei einem anderen 
Ausfuhrungsbeispiel k6nnen die Datenelemente in dem ver- 
bleibenden Abschnitt des Ergebnisses samtlich gelttscht (auf 
Null gesetzt) werden. Eine Beispiellogik zum Durchfuhren 
des Durchleitens der Datenelemente von einem der Operan- 
den zu dem Ergebnis und eine Beispiellogik zum Loschen 
der Datenelemente in dem Ergebnis werden unten beschrie- 
ben. 

Fig. 4 veranschaulicht das Ergebnis der Ausfuhrung eines 
Befehls fur gepackte Daten partieller Breite gemaB den ver- 
schiedenen Ausfiihrungsbeispielen der Erfindung. Bei die- 
sem Beispiel wird eine Operation an Datenelementen von 
zwei logischen Quellenregistern 410 und 420 durch eine 
Ausfuhrungseinheit 440 ausgefuhrt. Die Ausfuhrungsein- 
heit 440 enthalt eine Schaltungsanordnung und Logik zum 
Durchfuhren der von dem Befehl spezifizierten Operatio- 
nen. Zusatzlich kann die Ausfuhrungseinheit 440 eine Aus- 
wahlschaltung enthalten, die es der Ausfuhrungseinheit 440 
gestattet, entweder in einem Modus fur gepackte Daten par- 
tieller Breite oder in einem Modus fur gepackte Daten voller 
Breite zu arbeiten. Beispielsweise kann die Ausfuhrungsein- 
heit 440 eine Durchleitschaltung zum Durchleiten von Da- 
tenelementen von einem der logischen Quellregister 410, 
420 zu dem logischen Zielregister 430 enthalten, oder sie 
kann eine Loschschaltung zum Loschen eines oder mehrerer 
Datenelemente des logischen Zielregisters 430 enthalten. 
Zahlreiche andere Techniken konnen ebenfalls benutzt wer- 
den, um das Ergebnis der Operation zu beeinflussen, wobei 
diese Techniken einschliefien, dafi eines der Eingangssi- 
gnale fur die Operation auf einen vorgegebenen Wert ge- 
zwungen wird, wie beispielsweise einen Wert, der die Ope- 
ration zwingen wiirde, ihre IdentitMtsfunktion durchzufuh- 
ren, oder einen Wert, der durch die arithmetischen Operatio- 
nen laufen kann, ohne eine Ausnahme (z. B. eine quiet not- 
a-number (QNaN)) zu signalisieren. 

Bei dem veranschaulichten Beispiel wird nur das Ergeb- 
nis (Zo) der Operation an dem ersten Paar von Datenelemen- 
ten (Xq und Y 0 ) in dem logischen Zielregister 430 gespei- 
chert. Nimmt man an, dafi die Ausfuhrungseinheit 440 eine 
Durchleitlogik enthalt, so werden die verbleibenden Daten- 
elemente des logischen Zielregisters 430 auf die Werte aus 
den zugehSrigen Datenelementen des logischen Quellregi- 
sters 410 (d h. X 3 , X 2 und X0 gesetzt. Wahrend das logi- 
sche Zielregisters 430 als ein separates logisches Register 
gezeigt ist, ist es wichtig anzumerken, dafi es gleichzeitig als 
eines der logischen Quellregister 410, 420 dienen kann. 
Folglich sollte es klar sein, dafi das Setzen der Datenele- 
mente des logischen Zielregisters 430 auf Werte aus einem 
der logischen Quellregister 410, 420 in diesem Kontext be- 
deuten kann, dafi in diesen Datenelementen liberhaupt 
nichts passiert Beispielsweise kdnnen in dem Fall, dafi das 
logische Quellregister 410 sowohl ein logisches Quell- als 
auch ein Zielregister ist, verschiedene Ausflihrungsbeispiele 
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Vprteile daraus Ziehen, und einfach eines oder mehrere der 
Datenelemente, die durchgeleitet werden sollen, nicht be- 
rilhren. 

Alternativ kann die Ausfiihrungseinheit 440 eine Losch- 
logik enthalten. So werden anstelle des Durchleitens von 
Werten von einem der logischen Quellregister zu dem logi- 
schen Zielregister 430 diejenigen Datenelemente in dem Er- 
gebnis, die nicht erforderlich sind, gel5scht. Wiederum wird 
bei diesem Beispiel nur das Ergebnis (Zo) der Operation an 
dem ersten Paar von Datenelementen (Xo und Yo) in dem lo- 
gischen Zielregister 430 gespeichert. Die veibleibenden Da- 
tenelemente des logischen Zielregisters 430 werden "ge- 
I6scht" (d. h. auf Null oder auf einen anderen fiir diesen Fall 
vorgegebenen Wert gesetzt). 

Hardware voller Breite 

Die Fig. 5A-5C veranschaulichen Ausfuhrungseinheiten 
540, 560 bzw. 580, welche sowohl Befehle fUr gepackte Da- 
ten voller Breite als auch fiir gepackte Daten partieller 
Breite ausfuhren konnen. Die in den Ausfuhmngseinheiten 
gemSB Fig. 5A und 5C enthaltene Auswahllogik stellt eine 
beispielhafte Durchleitlogik dar, wahrend die Auswahllogik 
gemafi Fig. 5B fiir eine LSschlogik, die benutzt werden 
kann, reprasentativ ist. Bei den daigestellten Ausfuhrungs- 
beispielen enthalten die Ausfiihrungseinheiten 540, 560 und 
580 jeweils eine geeignete Logik, Schaltungsanordnung 
und/oder Firmware zum gleichzeitigen Ausfuhren einer 
Operation 570, 571 und 572 an den Operanden voller Breite 
(X und Y). 

Es wird jetzt auf Fig. 5A Bezug genommen, bei der die 
Ausfiihrungseinheit 540 eine Auswahllogik (zum Beispiel 
Multiplexer (MUX) 555-557) enthalt, urn zwischen einem 
durch die Operation 570 erzeugten Wert und einem aus ei- 
nem entsprechenden Datenelement eines der Operanden 
herriihrenden Wert auszuwahlen. Die MUX 555-557 kon- 
nen beispielsweise durch ein Signal gesteuert werden, das 
anzeigt, ob die gerade ausgefuhrte Operation eine Operation 
an gepackten Daten voller Breite oder eine Operation an ge- 
packten Daten partieller Breite ist. Bei alternativen Ausfuh- 
rungsbeispielen kann eine zus&tzliche Hexibilitat dadurch 
erreicht werden, daB eine zusatzliche MUX fiir das Daten- 
element 0 eingeschlossen wird und/oder jede MUX unab- 
hangig gesteuert wird. Verschiedene Einrichtungen zum 
Schaffen einer MUX-Steuerung sind mdglich. GemaB ei- 
nem Ausfiihrungsbeispiel kann eine solche Steuerung aus 
dem Befehl selbst hemihren, oder aus ihm abgeleitet werden 
oder sie kann durch einen Direktwert zur Verfiigung gestellt 
werden, Beispielsweise kann ein 4-Bit-Direktwert, der dem 
Befehl zugeordnet ist, verwendet werden, urn eine direkte 
Steuerung der MUX 555-557 durch Software zu gestatten. 
Diejenigen Multiplexer, die zu einer Eins in dem Direktwert 
gehflren, ktinnen angewiesen werden, das Ergebnis der Ope- 
ration auszuwahlen, wahrend diejenigen Multiplexer, die zu 
einer Null gehOren, veranlaBt werden kdnnen, das Durchlei- 
ten von Daten auszuwahlen. Selbstverstandlich kann eine 
grGBerc oder geringere Auflbsung bei verschiedenen Imple- 
mentierungen erreicht werden, indem mehr oder weniger 
Bits zum Darstellen des Direktwerts benutzt werden. 

Es wird jetzt auf Fig. 5B Bezug genommen, bei der die 60 elementen) erforderlich ist. Fig. 6 zeigt daniber hinaus, daB 
Ausfiihrungseinheit 540 eine Auswahllogik (z. B. Multiple- die ALU mehrere unterschiedliche Arten von AusfUhrungs- 
xer 565-567) zum Auswfihlen zwischen einem durch eine einheiten enthalten kann. Bei diesem Beispiel enthalt die 
Operation 571 erzeugten Wert und einem voigegebenen ALU zwei unterschiedliche Arten von Ausfiihrungseinhei- 
Wert (z. B. Null) enthalt Wie oben, kdnnen die Multiplexer ten zum Ausfiihren unterschiedlicher Arten von Opcratio- 
565-567 sich unter einer gemeinsamen Steuerung befinden 65 nen (z. B. verwenden bestimmte ALUs separate Einheiten 
oder unabhangig gesteuert werden. zum Durchfiihren von ADD- und MUL-Operationen). Die 

Die Durchleitlogik gemafi Fig. 5C (z. B. Multiplexer ADD-Ausfiihrungseinheit und die MUL-Ausfiihrungsein- 
575-576) wfihlt zwischen einem Datenelement eines der heit sind jeweils in der Lage, als vier separate ADD-Ausflih- 



Operanden und einem Identitatsfunktionswert 590 aus. Der 
Identitatsfunktionswert 590 wird gnmdsatzlich so ausge- 
wShlt, daB das Eigebnis der Durchfiihrung der Operation 
572 zwischen dem Identitatsfunktionswert 590 und dem Da- 
tenelement identisch dem Wert des Datenelements ist. Wenn 
beispielsweise die Operation 572 eine Multiplikadonsopera- 
tion wSre, dann ware der Identitatsfunktionswert 590 eine 
Eins. In ahnlicher Weise ware dann, wenn die Operation 572 
eine Additionsoperation ware, der Identitatsfunktionswert 
590 eine Null. Auf diese Weise kann der Wert eines Daten- 
elements selektiv zu dem logischen Zielregister 430 hin- 
durchgeleitet werden, indem die entsprechenden Multiple- 
xer 575-577 veranlaBt werden, den Identitatsfunktionswert 
590 auszugeben. 

Bei den oben beschriebenen Ausfiihrungsbeispielen war 
die Schaltung fest verdrahtet, so daB die Operationen par- 
tieller Breite an dem am geringsten bewerteten Datenele- 
mentabschnitt durchgefiihrt wurden. Es ist klar, daB die 
Operation an anderen Datenelementabschnitten als die dar- 
gestellten durchgefiihrt werden kann. Daniber hinaus kdn- 
nen, wie oben beschrieben wurde, die zu bearbeitenden Da- 
tenelemente durch Software konfigurierbar gemacht wer- 
den, indem samtliche der Operationen mit einem Multiple- 
xer oder dergleichen und nicht nur eine Untermenge der 
Operationen, wie es in den Fig. 5A-5C daigestellt ist, ge- 
koppelt werden. Wahrend eine Durchleit- und eine Ldschlo- 
gik als zwei Optionen zum Behandeln der sich eigebenden 
Datenelemente, die Operationen entsprechen, die nicht be- 
riicksichtigt werden soUen, beschrieben werden, k6nnen 
daniber hinaus alternative Ausfuhningsbeispiele andere 
Techniken benutzen. Beispielsweise kann ein QNaN als ei- 
ner der Operanden einer Operation eingegeben werden, de- 
ren Ergebnis vemachlassigt werden soil. Auf diese Weise 
leiten Operationen, die mit dem IEEE 754-Standard, IEEE 
std. 754-1985, veroffentlicht am 21. Marz 1985, uberein- 
stimmen, ein NaN zu dem Eigebnis weiter, ohne eine arith- 
metische Ausnahme auszulosen. 

Wahrend keine deutliche Geschwindigkeitserhohung bei 
den oben beschriebenen Ausfiihrungsbeispielen erreicht 
wird, da die voile Breite der Operanden parallel verarbeitet 
werden kann, ist es klar, daB der Stromverbrauch reduziert 
werden kann, indem diejenigen der Operationen abgeschal- 
tet werden, deren Ergebnisse vemachlassigt werden. So 
kdnnen betrachtliche Energieeinsparungen erreicht werden. 
Daniber hinaus kann bei Verwendung von QNaNs und/oder 
von Identitatsfunktionswerten ein vorhersagbares Ausnah- 
memodell aufrechtemalten werden, indem vermieden wird, 
daB Ausnahmen durch Datenelemente ausgelost werden, die 
nicht Teil der Operation an gepackten Daten partieller Breite 
50 sind. Folglich sind die berichteten Ausnahmen auf diejeni- 
gen begrenzt, die in Veibindung mit denjenigen Datenele- 
menten entstehen, an welchen die Operation fur gepackte 
Daten partieller Breite vorgibt zu aibeiten. 

Fig. 6 veranschaulicht eine aktuelle Prozessorimplemen- 
tierung einer arithmetisch-logischen Einheit (ALU), die 
zum Ausfiihren von Befehlen fiir gepackte Daten voller 
Breite verwendet werden kann. Die ALU gemaB Fig. 6 ent- 
halt die Schaltung, die zum Ausfiihren von Operationen an 
der vollen Breite der Operanden (d. h. an samtlichen Daten- 
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rungseinheiten bzw. vier separate MUL-Ausfiihrungseinhei- 
ten betrieben zu werden. Altemativ kann die ALU eine oder 
mehrere Multipliziere-Akkumuliere(MAC>-Hnheiten ent- 
halten, die jeweils in der Lage sind, mehr als nur eine Art ei- 
ner Operation durchzufUhren. WShrend die folgenden Bei- 5 
spiele die Verwendung von ADD- und MUL-Ausfiihnings- 
einheiten und Gleitkommaoperationen unterstellen, ist es 
klar, daB andere Ausfuhrungseinheiten, wie beispielsweise 
MAC und/oder Ganzzahloperationen ebensogut verwendet 
werden konnen. Ferner kann es vorzuziehen sein, eine Im- 10 
plementierung partieller Breite zu benutzen (z. B. eine Im- 
plementierung mit weniger als einer Eins-zu-eins-Korre- 
spondenz zwischen den Ausfuhningseinheiten und den Da- 
tenelementen) sowie eine zusStzliche Logik, zum Koordi- 
nieren der emeuten Verwendung der Ausfuhningseinheiten, 15 
wie es unten beschrieben wird. 

Hardware partieller Breite und "gestaffelte Ausfiihrung" 

Die Fig. 7A-7B veranschaulichen eine Operation flir ge- 20 
packte Daten voller Breite bzw. eine in einer "gestaffelten" 
Weise durchgefuhrte Operation fiir gepackte Daten par- 
tieller Breite. Im Kontext dieses AusfUhrungsbeispiels be- 
zieht sich die "gestaffelte Ausfiihrung" auf den ProzeB des 
Unterteilens jedes der Operanden eines Befehls in separate 25 
Segmente und die sequentielle Verarbeitung jedes Segments 
unter Verwendung derselben Hardware. Die Segmente wer- 
den sequentiell verarbeitet, indem eine Verzogerung in die 
Verarbeitung aufeinanderfolgender Segmente eingefiihrt 
wird. Wie es in den Fig. 7A-7B veranschaulicht ist, werden 30 
in beiden Fallen die gepackten Datenoperanden in ein "hoch 
bewertetes Segment" (Datenelemente 3 und 2) und ein 
"niedrig bewertetes Segment" (Datenelemente 1 und 0) un- 
terteilt. Bei dem Beispiel gemaB Fig. 7A wird das niedrig 
bewertete Segment verarbeitet, wahrend das hoch bewertete 35 
Segment verzogert wird. Nachfolgend wird das hoch bewer- 
tete Segment verarbeitet, und es wird ein Ergebnis voller 
Breite erzielt. Bei dem Beispiel gemaB Fig. 7B wird das 
niedrig bewertete Segment verarbeitet, wahrend die Tatsa- 
che, ob das hoch bewertete Datensegment verarbeitet wird, 40 
von der Implementierung abhangig ist. Beispielsweise 
braucht das hoch bewertete Datensegment nicht verarbeitet 
zu werden, sofern das zugehSrige Ergebnis auf Null gesetzt 
werden soU. Zusatzlich ist es klar, daB dann, wenn das hoch 
bewertete Datensegment nicht verarbeitet wird, sowohl das 45 
hoch als auch das niedrig bewertete Datensegment zur glei- 
chen Zeit bearbeitet werden konnen. In ahnlicher Weise 
k5nnen bei einer Implementierung voller Breite (z. B. einer 
Implementierung mit einer Eins-zu-Eins-Korrespondenz 
zwischen Ausfuhrungseinheiten und Datenelementen) die 50 
hoch und niedrig bewerteten Datensegmente gleichzeitig 
verarbeitet werden, wie es in Fig. 7A gezeigt ist. 

Obwohl im folgenden nur AusfUhrungsbeispiele be- 
schrieben werden, die nur ADD- und MUL-Ausfiihrungs- 
dnhdtenaufweisen,k5nnendaruberhinaus auch andere Ar- 55 
ten von Ausfuhrungseinheiten, wie beispielsweise MAC- 
Einheiten, verwendet werden. 

Wahrend es eine Reihe unterschiedlicher Wege gibt, auf 
welchen die gestaffelte Ausfiihrung von Befehlen erreicht 
werden kann, beschreiben die folgenden Abschnitte zwei 60 
exemplarische AusfUhrungsbeispiele, um diesen Aspekt der 
Erfindung zu veranschaulichen. Insbesondere empfangen 
beide der beschriebenen AusfUhrungsbeispiele jeweils den- 
selben Makrobefehl, der 128-Bit-Operanden enthaltende lo- 
gische Register spezifiziert. 65 

Bei dem ersten AusfUhrungsbeispiel bewirkt jeder Ma- 
krobefehl, der 128-Bit-Operanden enthaltende logische Re- 
gister spezifiziert, daB auf die voile Breite der Operanden 
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aus den physikalischen Registern zugegriffen wird. Nach 
dem Zugriff auf die Operanden voller Breite aus den Regi- 
stern werden die Operanden in die niedrig und hoch bewer- 
tete Segmente unterteilt (z, B. unter Verwendung von Latch- 
Speichern und Multiplexern) und sequentiell unter Verwen- 
dung derselben Hardware ausgefiihrt. Die resultierenden Er- 
gebnisse halber Breite werden gesammelt und dann gleich- 
zeitig in ein dnziges logisches Register geschrieben. 

Im Unterschied dazu wird bei dem zweiten AusfUhrungs- 
beispiel jeder 128-Bit-Operanden enthaltende logische Re- 
gister spezifizierende Makrobefehl in zumindest zwei Mi- 
krobefehle unterteilt, die jeweils an nur der Haifte der Ope- 
randen operieren. Somit werden die Operanden in ein hoch 
und ein niedrig bewertetes Segment unterteilt und jeder Mi- 
krobefehl bewirkt separat, daB nur auf die Haifte der Ope- 
randen aus den Registern zugegriffen wird. Diese Art einer 
Unterteilung ist bei einer SIMD-Architektur moglich, weil 
jeder der Operanden unabhangig von dem anderen ist Wah- 
rend Implementierungen des zweiten AusfUhrungsbeispiels 
die Mikrobefehle in einer beliebigen Reihenfolge (entweder 
in einem Inder-Reihenfolge oder einem AuBer-der-Reihe- 
Ausfuhrungsmodell) ausfiihren kSnnen, bewirken die jewei- 
ligen Mikrobefehle, daB die von dem Makrobefehl spezifi- 
zierte Operation unabhangig oder separat an dem niedrig 
und hoch bewerteten Segment der Operanden durchgefuhrt 
wird. Dariiber hinaus bewirkt jeder Mikrobefehl, daB die 
Haifte der sich ergebenden Operanden in ein einziges logi- 
sches Zielregister, das durch den Makrobefehl spezifiziert 
ist, geschrieben wird. 

Wahrend AusfUhrungsbeispiele beschrieben werden, bei 
welchen 128-Bit-Operanden in zwei Segmente unterteilt 
werden, konnten alternative AusfUhrungsbeispiele groBere 
oder kleinere Operanden verwenden und/oder diese Operan- 
den in mehr als zwei Segmente unterteilen. Zusatzlich konn- 
ten, obwohl zwei AusfUhrungsbeispiel zum Durchfuhren ei- 
ner gestaffelten Ausfiihrung beschrieben wurden, alterna- 
tive AusfUhrungsbeispiele andere Techniken verwenden. 

Erstes eine "gestaffelte Ausfiihrung" benutzendes AusfUh- 
rungsbeispiel 



Fig. 8A veranschaulicht eine Schaltungsanordnung inner- 
halb eines Prozessors gemaB einem ersten AusfUhrungsbei- 
spiel, die auf Operanden voller Breite aus den logischen Re- 
gistern zugreift, aber die die Operationen jeweils an der 
Haifte der Breite der Operanden durchfUhrt. Dieses AusfUh- 
rungsbeispiel untersteUt, daB die ProzessorausfUhrungsma- 
schine in der Lage ist, einen Befehl pro Thktzyklus zu verar- 
beiten. Als Beispiel sei angenommen, daB die folgende Se- 
quent von Befehlen ausgefUhrt wird: ADD X,Y; MUL A,B. 
Zum Zeitpunkt T werden jeweils 128 Bits von X und 
128 Bits von Y aus den jeweiligen physikalischen Registern 
Uber die Ports 1 und 2 gewonnen bzw. gelesen. Die niedriger 
bewerteten Datensegmente, namlich die unteren 64 Bits, 
von sowohl X als auch Y werden an die Multiplexer 802 und 
804 weitergeleitet und dann weiter zu den Ausfuhrungsein- 
heiten fiir die Verarbeitung. Die h6her bewerteten Datenseg- 
mente, ntolich die haheren 64 Bits von X und Y werden in 
den VerzGgerungselementen Ml und M2 gehalten. Zum 
Zeitpunkt T+l werden die hoher bewerteten Datensegmente 
von X und Y aus den Verzdgerungselementen Ml und M2 
gelesen und an die Multiplexer 802 und 804 weitergeleitet 
und dann weiter zu den Ausfuhrungseinheiten zur Verarbei- 
tung. Grundsatzlich gestattet der Verzogerungsmechanis- 
mus des Speicherns der hoher bewerteten Datensegmente in 
den Verzdgerungselementen Ml und M2 einer N-Bit-Hard- 
ware (N=64 in diesem Beispiel), 2N-Bits von Daten zu ver- 
arbeiten. Die niedrig bewerteten Ergebnisse aus der Ausfiih- 
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ningseinheit werden in dem Verzdgerungselement M3 ge- 
halten, bis die hSher bewerteten Eigebnisse bereit sind Die 
Eigebnisse beider Veraibeitungsschritte werden dann in die 
Registerdatei 800 iiber den Port 3 zurilckgeschrieben. Man 
erinnere sich, daS im Falle einer Operation fur gepackte Da- 5 
ten partieller Breite ein oder mehrere Dateneiemente des 
niedrig oder hoch bewerteten Ergebnisses auf einen voige- 
gebenen Wert (z. B. Null oder den Wert eines entsprechen- 
den Datenelements in entweder X oder Y) anstelle der Aus- 
gabe der ADD- oder MUL-Operation gezwungen werden 10 
konnen. 

Zum Zeitpunkt T+l kann dariiber hinaus der MUL-Be- 
fehl gestartet worden sein. Somit kOnnen zum Zeitpunkt 
T+l 128 Bits von A und B jeweils von ihren zugehBrigen 
Registern iiber die Ports 1 und 2 gelesen worden sein. Die 15 
niedriger bewerteten Datensegmente, nSmlich die unteren 
64 Bits, von sowohl A als auch B, kdnnen in die Multiplexer 
806 und 808 geleitet werden. Nachdem die hGher bewerte- 
ten Bits von X und Y aus den VerzGgerungselementen Ml 
und M2 entfernt und in die Multiplexer 806 und 808 geleitet 20 
worden sind, konnen die hoher bewerteten Bits von A und B 
im Speicher der Verzogerungselemente Ml und M2 gehal- 
ten werden. Die Eigebnisse beider Veraibeitungsschritte 
werden dann in die Registerdatei 800 iiber den Port 3 zu- 
riickgeschrieben. 25 

Somit werden gemaB einem Ausfuhrungsbeispiel der Er- 
findung Ausfiihrungseinheiten voigesehen, die nur die 
HMlfte der Hardware enthalten (z. B. zwei ADD- Ausfiih- 
rungseinheiten einfacher Genauigkeit und zwei MUL-Aus- 
fiihrungseinheiten einfacher Genauigkeit) anstelle der Aus- 30 
fuhrungseinheiten, die zur parallelen Verarbeitung der vol- 
len Breite der Operanden erforderlich sind, wie sie in einem 
gegenwartigen Prozessor zu finden sind. Diese Ausfiih- 
rungsform zieht Vorteil aus einer statist! schen Analyse, die 
zeigt, daB Multimedia-Anwendungen etwa 50% ADD-Be- 35 
fehle und 50% MUL-Befehle verwenden. Auf der Grund- 
lage dieser Statistik unterstellt dieses Ausfuhrungsbeispiel, 
daB Multimedia-Befehle grundsatzlich dem folgenden Mu- 
ster folgen: ADD, MUL, ADD, MUL, etc. Durch Verwen- 
den der ADD und MUL-Ausfiihrungseinheiten in der oben 40 
beschriebenen Weise sorgt die vorliegende Erfindung fur 
eine optimale Verwendung der Ausfiihrungseinheiten, wo- 
bei sie eine mit gegenwSrtigen Prozessoren vergleichbare 
Leistung zu niedrigeren Kosten ermoglicht. 

Fig. 8B ist ein Zeitdiagramm, das die Schaltung gemaB 45 
Fig. 8A nMher veranschaulicht. Wie es in Fig. 8B veran- 
schaulicht ist, fiihren die beiden ADD-Ausfiihrungseinhei- 
ten dann, wenn der Befehl "ADD X,Y" zum Zeitpunkt T 
ausgegeben wird, zunachst eine Addition der niedriger be- 
werteten Datensegmente oder der niedriger bewerteten bei- 50 
den gepackten Datenelement gemaB Fig. 1, nSmlich XoY 0 
und XiYi aus. Zum Zeitpunkt T+l wird die ADD-Operation 
an den verbleibenden zwei Datenelementen der Operanden 
durch dieselben Ausfiihrungseinheiten durchgefiihrt, und 
die nachfolgenden zwei Dateneiemente des hCher bewerte- 55 
ten Datensegments werden addiert, nMmlich X 2 Y 2 und 
X3Y3. Wahrend das obige Ausfuhrungsbeispiel unter Be- 
zugnahme auf ADD- und MUL-Operationen unter Verwen- 
dung von zwei Ausfiihrungseinheiten beschrieben wurde, 
kdnnen alternative Ausfiihrungsbeispiele eine beliebige An- 60 
zahl von Ausfiihrungseinheiten verwenden und/oder eine 
beliebige Anzahl unterschiedlicher Operationen in einer ge- 
staffelten Weise ausfiihren. 

GemaB diesem Ausfilhrungsbeispiel kann eine 64-Bit- 
Hardware verwendet werden, um 128-Bit-Daten zu verar- 65 
beiten. Ein 128-Bit-Register kann in vier 32-Bit-Elemente 
unterteilt werden, von denen jedes einen separaten 32-Bit- 
Wert repr&sentiert Zum Zeitpunkt T fiihren die beiden 



ADD- Ausfiihrungseinheiten zunachst Addiuonen an den 
zwei niedrigen 32-Bit- Werten durch, gefolgt von einer Ad- 
dition an den hbheren 32-Bit-Werten zum Zeitpunkt T+l. 
Im Falle einer MUL-Operation verhalten sich die MUL- 
Ausfiihrungseinheiten in der gleichen Weise. Diese Fahig- 
keit zu einer Verwendung gegenwartig verfiigbarer 64-Bit- 
Hardware, um 128-Bit-Daten zu verarbeiten, stellt einen si- 
gnifikanten Kostenvorteil fiir Hardware-Hersteller dar. 

Wie oben beschrieben, werden die ADD- und MUL-Aus- 
fiihrungseinheiten gemaB dem vorliegenden Ausfilhrungs- 
beispiel emeut verwendet, um eine zweite ADD- oder 
MUL-Operation bei einem nachfolgenden Thktzyklus er- 
neut auszufiihren. Selbstverstandlich werden im Fall eines 
Befehls fiir gepackte Daten partieller Breite die Ausfiih- 
rungseinheiten emeut verwendet, aber die Operation wird 
nicht notwendigerweise emeut ausgefiihrt, da die Stromver- 
sorgung zur Ausfiihrungseinheit selektiv abgeschaltet wer- 
den kann. In jedem Fall zieht, wie oben beschrieben wurde, 
dieses Ausfilhrungsbeispiel fiir diese Neu- Verwendung bzw. 
"gestaffelte Ausfiihrung" Vorteil aus dem statistischen Ver- 
halten von Multimedia-Anwendungen. 

Wenn ein zweiter ADD-Befehl einem ersten ADD-Befehl 
folgt, kann der zweite ADD-Befehl durch eine Einplanungs- 
einheit (scheduling unit) verzogert werden, um den ADD- 
Ausfiihrungseinheiten zu gestatten, den ersten ADD-Befehl 
abzuschlieBen, bzw. genauer, den ADD-Befehl fur das ho- 
her bewertete Datensegment abzuschlieBen. Der zweite 
ADD-Befehl kann dann mit der Ausfiihrung beginnen. Al- 
ternativ kann bei einem AuBer-der-Reihe-Prozessor die Ein- 
planungseinheit bestimmen, daB ein MUL-Befehl, der sich 
weiter hinten im Befehlsstrom befindet, auBer der Reihe 
ausgefiihrt werden kann. Wenn dies der Fall ist, kann die 
Einplanungseinheit die MUL-Ausfiihrungseinheiten infor- 
mieren, mil der Verarbeitung des MUL-Befehls zu begin- 
nen. Wenn keine MUL-Befehle zur Verarbeitung zum Zeit- 
punkt T+l verfiigbar sind, gibt der Einplaner keinen dem er- 
sten ADD-Befehl folgenden Befehl aus, womit den ADD- 
Ausfuhrungseinheiten Zeit gegeben wird, den ersten ADD- 
Befehl abzuschlieBen, bevor der zweite ADD-Befehl begon- 
nen wird. 

Noch ein weiteres Ausfuhrungsbeispiel der Erfindung ge- 
stattet, daB "back-to-baek'-ADD- oder -MUL-Befehle aus- 
gegeben werden, indem die Befehle auf den gleichen Aus- 
fiihrungseinheiten in halben Taktzyklen anstelle von vollen 
Taktzyklen ausgefiihrt werden. Die Ausfiihrung eines Be- 
fehls in einem halben Taktzyklus "verdoppelt" effektiv die 
Hardware, d. h. macht die Hardware zweimal so schnell. 
Auf diese Weise kdnnen die ADD- oder MUL-Ausfiih- 
rungseinheiten wShrend jedes Taktzyklus verfiigbar sein, 
um einen neuen Befehl zu verarbeiten. Eine verdoppelte 
Hardware gestattet, daB die Hardwareeinheiten zweimal so 
effektiv ausfiihren, wie eine einf ache Hardware, die nur bei 
vollstandigen Taktzyklen ausfiihrt. Eine derart verdoppelte 
Hardware erfordert signifikant mehr Hardware, kann jedoch 
effektiv den Befehl im halben Taktzyklus verarbeiten. 

Es ist klar, daB Modifikationen und Variauonen der Erfin- 
dung von der obigen Lehre abgedeckt werden und innerhalb 
des Umfangs der anhangigen Anspriiche liegen kdnnen, 
ohne vom Geist und Umfang der Erfindung abzuweichen. 
Beispielsweise kdnnen, obwohl nur zwei Ausfiihrungsein- 
heiten oben beschrieben wurden, beliebig viele logische 
Einheiten zur Verfiigung gestellt werden. 

Zweites eine "gestaffelte Ausfiihrung" verwendendes Aus- 



GemaB einem altemativen Ausfilhrungsbeispiel der Er- 
findung wird die gestaffelte Ausfiihrung eines Operanden 
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voller Breite errdcht, indem ein Makrobefehl fiir eine voile 
Breite in zumindest zwei Mikrobefehle konvertiert wird, die 
jeweils annurder Hfilfte der Operanden operieren. Wie un- 
ten naher beschrieben wird, kann dann, wenn die Makrobe- 
fehle eine Operation fiir gepackte Daten partieUer Breite 5 
spezifizieren, eine bessere Leistung erreicht werden, indem 
Mikrobefehle eliminiert werden, die zum Bestimmen des 
Ergebnisses partieller Breite nicht erforderiich sind Auf 
diese Weise werden die EinschrSnkungen der Prozessorres- 
sourcen reduziert, und der Prozessor wird nicht unndtiger- 10 
weise mit wirkungslosen Mikrobefehlen okkupiert Obwohl 
die folgende Beschreibung unter Beriicksichtigung eines 
speziellen Registerumbenennungsverfahrens beschrieben 
ist, ist es klar, daB andere Registenimbenennungsmechanis- 
men ebenfalls im Rahmen der Erfindung benutzt werden 15 
kSnnen. Das unten beschriebene Registerumbenennungs- 
verfahren unterstellt die Verwendung einer Register-Alias- 
Tabelle (RAT), eines Umordnungspuffers (ROB) und eines 
Retirement-Puffers, wie sie im Detail in dem US-Patent Nr. 
5,446,912 beschrieben sind Alternative Registerumbenen- 20 
nungsverfahren, wie sie beispielsweise im US-Patent Nr. 
5,197,132 beschrieben sind, konnen ebenfalls implementiert 
werden. 

Fig. 9 veranschaulicht ein Ausfiihrungsbeispiel einer 
Pipeline zum Durchfiihren von Operationen an Operanden 25 
in einer "gestaffelten" Weise, indem ein Makrobefehl in eine 
Mehrzahl von Mikrobefehlen konvertiert wird, die jeweils 
einen Abschnitt der Operanden voller Breite bearbeiten. Es 
sei angemerkt, daB verschiedene andere Stufen der Pipeline, 
zum Beispiel eine "Vorab-Heranhol-Stufe", nicht im Detail 30 
gezeigt sind, um die Erfindung nicht unnotigerweise zu ver- 
dunkeln. Wie veranschaulicht, wird an der Dekodierstufe 
der Pipeline ein Makrobefehl fur eine voile Breite empfan- 
gen, der logische Quellregister spezifiziert, die jeweils einen 
Operanden voller Breite (z.B. 128 Bits) speichem. Bei- 35 
spielsweise sind die beschriebenen Operanden gepackte 
128-Bit-Gleitkomma-Datenoperanden. Bei diesem Beispiel 
unterstiitzt der Prozessor Y logische Register zum Speichern 
gepackter Gleitkomma-Daten. Der Makrobefehl wird in Mi- 
krobefehle konvertiert, namlich eine "hoch bewertete Ope- 40 
ration" und eine "niedrig bewertete Operation", die jeweils 
bewirken, daB die Operation des Makrobefehls an der hal- 
ben Breite der Operanden (z. B. 64 Bits) durchgefuhrt wird. 

Die zwei Mikrobefehle fur die halbe Breite bewegen sich 
dann in eine Registerumbenennungsstufe der Pipeline. Die 45 
Registerumbenennungsstufe enthalt eine Anzahl von Regi- 
sterabbildungs- und Umordnungspuffern. Die logischen 
Quellregister jedes Mikrobefehls sind Zeiger auf spezielle 
Registereintrage in einer Registerabbildungstabelle (z.B. 
einer RAT). Die Eintrage in der Registerabbildungstabelle 50 
wiederum zeigen auf den Ort des physikalischen Quellspei- 
cherplatzes in einem ROB oder in einem Retirement-Regi- 
ster. GemaB einem Ausfiihrungsbeispiel wird, um die oben 
beschriebenen hoch und niedrig bewerteten Operationen 
halber Breite unterzubringen, eine RAT fiir gepackte Gleit- 55 
komma-Daten mit Y - 2 Eintrftgen vorgesehen. Somit wird 
beispielsweise anstelle einer RAT mit den Eintragen fiir 8 
logische Register eine RAT mit 16 EintrSgen erzeugt, wobei 
jeder Eintrag entweder als "hoch" oder als "niedrig" adres- 
siert wird. Jeder Eintrag identifiziert eine 64-Bit-Quelle, die 60 
entweder einem hohen oder einem niedrigen Tfeil des logi- 
schen 128-Bit-Registers entspricht. 

Jeder der hoch und niedrig bewerteten Mikrobefehle 
weist somit zugehdrige Eintrage in der Registerabbildungs- 
tabelle auf, die den jeweiligen Operanden entsprechen. Die 65 
Mikrobefehle werden dann in eine Einplanungsstufe (bei ei- 
nem AuBer-der-Reihe-Prozessor) oder an eine AusfUhrungs- 
stufe (bei einem In-der-Reihenfolge-Prozessor) bewegt. Je- 



16 



der Mikrobefehl liest und veraibeitet separat ein 64-Bit-Seg- 
ment der 128-Bit-Operanden. Eine der Operationen (z. B. 
die niedriger bewertete Operation) wird zunachst von den 
64-Bit-Hardware-Einheiten ausgefiihrt. Dann fiihrt dieselbe 
64-Bit-Hardware-Einheit die h6her bewertete Operation 
aus. Es ist klar, daB kein Befehl oder auch mehrere Befehle 
zwischen der niedriger und der hdher bewerteten Operation 
ausgefiihrt werden kdnnen. 

Obwohl das obige Ausfiihrungsbeispiel beschreibt, daB 
der Makrobefehl in zwei Mikrobefehle unterteilt wird, k5n- 
nen alternative Ausfiihnrogsbeispiele den Makrobefehl in 
mehr als zwei Mikrobefehle unterteilen. WShrend Fig. 9 
zeigt, daB die gepackten Gleitkomma-Daten an eine Retire- 
ment-Registerdatei mit Y • 2 64-Bit-Registern, die jeweils 
als hoch oder niedrig bezeichnet sind, zuriickgibt, kdnnen 
alternative Ausfiihrungsbeispiele eine Retirement-Register- 
datei mit Y 128-Bit-Registern verwenden. Zusatzlich k6n- 
nen, w&biend ein Ausfiihrungsbeispiel beschrieben ist, das 
einen Registerumbenennungsmechanismus mit einem Um- 
ordnungspuflFer und einer Retirement-Registerdatei auf- 
weist, alternative Ausfiihrungsbeispiele einen beliebigen 
Registerumbenennungsmechanismus verwenden. Beispiels- 
weise verwendet der Registerumbenennungsmechanismus 
gemaB dem US-Patent Nr. 5,197,132 eine Voigeschichte- 
Warteschlange und eine Back-up- Abbildung. 

Fig. 10 ist ein Zeitdiagramm, das das in Fig. 9 beschrie- 
bene Ausfiihrungsbeispiel naher veranschaulicht. Zum Zeit- 
punkt T tritt ein Makrobefehl "ADD X,Y" in die Dekodier- 
stufe der Pipeline gemaB Fig. 9 ein. Beispielsweise ist der 
Makrobefehl hier ein 128-Bit-Befehl. Der 128-Bit-Makro- 
befehl wird in zwei 64-Bit-Mikrobefehle konvertiert, nam- 
lich die hoch bewertete Operation "ADD X H ,Y H " und die 
niedrig bewertete Operation "ADD X L ,Y L ". Jeder Mikrobe- 
fehl bearbeitet dann ein Datensegment, das zwei Datenele- 
mente enthalt. Beispielsweise kann zum Zeitpunkt T die 
niedrig bewertete Operation durch eine 64-Bit-Ausfuh- 
rungseinheit ausgefiihrt werden. Dann wird zu einem ande- 
ren Zeitpunkt (z. B. zum Zeitpunkt T+N) die hoher bewer- 
tete Operation durch dieselbe 64-Bit-Ausfiihrungseinheit 
ausgefiihrt. Dieses Aiisfuhrungsbeispiel der Erfindung ist 
somit insbesondere fiir die Verarbeitung von 128-Bit-Befeh- 
len unter Verwendung vorhandener 64-Bit-Hardwaresy- 
steme ohne signifikante Veranderungen der Hardware geeig- 
neL Die vorhandenen Systeme kdnnen leicht erweitert wer- 
den, so daB sie eine neue Abbildung zum Behandeln ge- 
packter Gleitkomma-Daten zusatzlich zu den vorhandenen 
logischen Registerabbildungen enthalten. 

Es wird jetzt auf Fig. 11 Bezug genommen; anhand der 
die Dekodierlogik beschrieben wird, die gem2B einem Aus- 
fiihrungsbeispiel der Erfindung verwendet werden kann. 
Kurz gesagt empfangen bei dem dargestellten Ausfiihrungs- 
beispiel eine Mehrzahl von Decodierern 1110, 1120 und 
1130 jeweils einen Makrobefehl und konvertieren inn in ei- 
nen Mikrobefehl. Dann wird die Mikrooperation hinab zum 
Rest der Pipeline gesendet. Selbstverstandlich sind nicht N 
Mikrobefehle fiir die Ausfuhrung jedes Makrobefehls erfor- 
derlich. Folglich ist es Ublicherweise der FaU, daB nur eine 
Untermenge von Mikrobefehlen zur Verarbeitung durch den 
Rest der Pipeline eingereiht wird. 

Wie oben beschrieben, kftnnen gepackte Datenoperatio- 
nen als zwei Mikrobefehle halber Breite implementiert wer- 
den (z. B. eine hoch bewertete Operation und eine niedrig 
bewertete Operation). Anstelle des unabhangigen Decodie- 
rens des Makrobefehls durch zwei Decodierer, um die hoch 
und die niedrig bewertete Operation zu erzeugen, wie es ty- 
pischerwdse bei bekannten Prozessorimplementienmgen 
erfordo-lich sein wtirde, kdnnen als Merkmal der vorliegen- 
den Ausfiihrungsfonn beide Mikrobefehle durch den glei- 
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cben Decodierer erzeugt werden. Bei diesem Beispiel wild 
dies durch die Replikationslogik 1150 ausgefUhrt, welche 
entweder die hoch bewertete oder die niedrig bewertete 
Operation repliziert und nachfolgend die sich ergebende re- 
plizierte Operation geeignet modifiziert, urn die verblei- 5 
bende Operation zu erzeugen. Wie oben beschrieben wurde, 
ist es wichtig, daB durch sorgfdltiges Codieren des Registe- 
radreBraums die von den Mikrobefehlen adressierten Regi- 
ster (z. B. die logischen Quell- und Zielregister) so gebildet 
werden k6nnen, daB sie sich durch einziges Bit unterschei- 10 
den. Im Ergebnis kann die Modifikationslogik 1160 in ihrer 
einfachsten Form einen oder mehrere Inverter aufweisen, 
urn die richtigen Bits zu invertieren, um eine hoch bewertete 
Operation aus einer niedrig bewerteten Operation und um- 
gekehrt zu erzeugen. In jedem Fall wird dann der repli zierte l 5 
Mikrobefehl zum Multiplexer 1170 weitergeleitet. Der Mul- 
tiplexer 1170 empfdngt darilber hinaus einen von dem Deco- 
dierer 1120 erzeugten Mikrobefehl. Bei diesem Beispiel gibt 
der Multiplexer unter der Steuerung eines Gulugkeitsdeco- 
dierers 1180 den replizierten Mikrobefehl fiir gepackte Da- 20 
tenoperationen (die Operationen fur gepackte Daten par- 
tieller Breite umfassen) aus und gibt den Mikrobefehl aus, 
der vom Decodierer 1120 empfangen wurde, fur von ge- 
packten Datenoperationen abweichende Operationen. Folg- 
lich ist es vorteilhaft, die Befehlscodeabbildung zu optimie- 25 
ren, um die Erfassung gepackter Datenoperationen durch die 
Replikationslogik 1150 zu vereinfachen. Wenn beispiels- 
weise nur ein geringer Abschnitt des Makrobefehls iiber- 
priift werden muB, um gepackte Datenoperationen von an- 
deren Operationen zu unterscheiden, so konnte eine gerin- 30 
gere Schaltungsmenge durch den Giiltigkeitsdecodierer 
1180 benutzt werden. 

Bei einer Implementierung, die Quelldateneleinente zu 
dem logischen Zielregister zum Zwecke der Ausfiihrung 
von Operationen fur gepackte Daten partieller Daten durch- 35 
leitet, kann zusatzlich zur Auswahllogik, ahnlich der die un- 
ter Bezugnahme auf die Fig. 5 A und 5C beschrieben worden 
ist, Logik enthalten sein, um entweder die hoch oder die 
niedrig bewertete Operation zu eUminieren (zu "vernich- 
ten"). Vorzugsweise wird aus Leistungsgrunden der unwe- 40 
sentliche Mikrobefehl frtih in der Pipeline eliminiert. Diese 
Eliminierung kann gemaB dem dargestellten Ausfuhrungs- 
beispiel ausgefUhrt werden, indem ein Mikrobefehlsaus- 
wahlsignal verwendet wird, das von der MikrobefehlslMn- 
genbestimmungsschaltung 1190 ausgegeben wird. Die Mi- 45 
krobefehlsiangenbestimmungsschaltung 1190 Uberpriift ei- 
nen Abschnitt des Makrobefehls und erzeugt das Mikrobe- 
fehlsauswahlsignal, welches eine spezielle Kombination ei- 
ner oder mehrerer Mikrobefehle anzeigt, die weiter unten in 
der Pipeline ausgefUhrt werden sollen. Im Falle eines skala- 50 
ren SIMD-Befehls wird nur einer der sich ergebenden hoch 
und niedrig bewerteten Operationen gestattet, fortzufahren. 
Beispielsweise kann das Mikrobefehlsauswahlsignal durch 
eine Bitmaske reprMsentiert sein, die diejenigen der Mikro- 
befehle identifiziert, die beibehalten werden sollen, und die- 55 
jenigen, die ekminiert werden sollen. Alternativ kann das 
Mikrobefehlsauswahlsignal einfach die Nummer der Mikro- 
befehle von einem vorgegebenen Standpunkt aus anzeigen, 
die eliminiert bzw. zuriickgehalten werden sollen. Die zum 
Ausfiihren der oben beschriebenen Beseitigung erforderli- 60 
che Logik variiert in AbhSngigkeit vom Steuerungsmecha- 
nismus, der die Mikrobefehle durch den Rest der Pipeline 
leitet Wenn beispielsweise die Mikrobefehle in eine Warte- 
schlange eingereiht werden, wurde Logik hinzugefUgt wer- 
den, um den Kopf- und den Ende-Zeiger der Mikrobefehls- 65 
warteschlange zu bearbeiten, um zu bewirken, daB ungiiltige 
Mikrobefehle durch nachfolgend erzeugte gtiltige Mikrobe- 
fehle tiberschrieben werden. Zahlreiche weitere Eliminie- 



rungstechniken sind Fachleuten auf diesem Gebiet klar. 

Obwohl aus Griinden der Vereinf achung nur ein einzelner 
Makrobefehl gezeigt ist, der zu einem vorgegebenen Zeit- 
punkt bei dem dargestellten Ausfilhrungsbeispiel decodiert 
wird, kdnnen bei altemativen Ausftlhrungsbeispielen meh- 
rere Makrobefehle gleichzeitig decodiert werden. Darilber 
hinaus ist es klar, daB die Mikrobefehlsreplikation eine brei- 
tere Anwendung findet, als die bei dem obigen Ausfuh- 
rungsbeispiel dargesteUte. Beispielsweise ktinne auf eine 
Weise, die ahnlich der oben beschriebenen ist, Makrobe- 
fehle fiir gepackte Daten voller Breite und partieller Breite 
durch denselben Decodierer decodiert werden. Sofern ein 
Pr&fix verwendet wird, um Makrobefehle fiir gepackte Da- 
ten voller Breite und partieller Breite zu unterscheiden, kann 
der Decodierer einfach den Prafix ignorieren und beide Ar- 
ten von Befehlen auf die gleiche Weise decodieren. Dann 
werden die geeigneten Bits in den sich ergebenden Mikroo- 
perationen modifiziert, um selektiv die Verarbeitung fiir ent- 
weder samtliche oder eine Untermenge der Datenelemente 
zu erm8glichen. Auf diese Weise kSnnen Mikrobefehle fur 
gepackte Daten voller Breite aus Mikrobefehlen fiir ge- 
packte Daten partieller Breite erzeugt werden oder umge- 
kehrt, wodurch sich die Komplexitat des Decodierers verrin- 
gert 

Patentanspriiche 

1 . Prozessor mit einer Mehrzahl von Registem und ei- 
ner Registerumbenennungseinheit, die mit der Mehr- 
zahl von Registern gekoppelt ist, um eine Architektur- 
registerdatei zum Speichem gepackter Datenoperanden 
zur Verfugung zu stellen, wobei jeder der gepackten 
Datenoperanden eine Mehrzahl von Datenelementen 
aufweist, 

dadurch gekennzeichnet, 

daB ein Decodierer mit der Registerumbenennungsein- 
heit gekoppelt ist, um einen ersten und einen zweiten 
Satz von Befehlen zu decodieren, die jeweils wenig- 
stens ein Register in der Architekturregisterdatei spezi- 
fizieren, wobei jeder Befehl in dem ersten Satz von Be- 
fehlen Operationen an samtlichen in dem wenigstens 
einen spezifizierten Register gespeicherten Datenele- 
mente spezifiziert, wobei jeder Befehl des zweiten Sat- 
zes von Befehlen eine Operation an nur einer Unter- 
menge der in dem wenigstens einen spezifizierten Re- 
gister gespeicherten Datenelementen spezifiziert, und 
daB eine Ausfuhrungseinheit partieller Breite mit dem 
Decodierer gekoppelt ist, um entweder von dem ersten 
oder dem zweiten Satz von Befehlen spezifizierte Ope- 
rationen auszufuhren. 

2. Prozessor nach Anspruch 1, dadurch gekennzeich- 
net, daB die Untermenge der in einem spezifizierten 
wenigstens einen Register gespeicherten Datenele- 
mente einander entsprechende am geringsten bewertete 
Datenelemente umfaBt. 

3. Prozessor nach Anspruch 1 oder 2, gekennzeichnet 
durch eine Ausfiihrungseinheit zum selektiven Ausfiih- 
ren einer spezifizierten Operation an einem oder meh- 
reren Datenelementen in dem spezifizierten wenigstens 
einen Register in Abhflngigkeit davon, ob die spezifi- 
zierte Operation dem ersten oder dem zweiten Satz von 
Befehlen zugeordnet ist. 

4. Prozessor nach Anspruch 3, dadurch gekennzeich- 
net, daB die Ausfiihrungseinheit eine Mehrzahl von 
Multiplexern aufweist, um zwischen einem Ergebnis 
dor spezifizierten Operation und einem vorgegebenen 
Wert zu wfihlen. 

5. Der Prozessor nach Anspruch 3, dadurch gekenn- 
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19 



20 



, zeichnet, daB die Ausfuhrungseinheit eine Mehrzahl 
von Multiplexern aufweist, urn zwischen einem der 
wenigstens einen Datenelemente und einer Identitats- 
funktion zur Eingabe an die spezifizierte Operation zu 



6. Verfahren zum Ausfiihren eines Makrobefehls in ei- 
nem Prozessor, wobei 

ein einzelner Makrobefehl empfangen wild, der zumin- 
dest zwei logische Register in einer Registerdatei ge- 
packter Daten spezifiziert, wobei die beiden logischen 10 
Register einen ersten gepackten Datenoperanden bzw. 
einen zweiten gepackten Datenoperanden speichern, 
die einander entsprechende Datenelemente aufweisen, 
und 

eine erste und eine zweite Mehrzahl der einander ent- 15 
sprechenden Datenelemente aus dem ersten bzw. dem 
zweiten gepackten Datenoperanden unabhangig zu 
verschiedenen Zeiten unter Verwendung der gleichen 
Schaltung verarbeitet werden, urn unabhangig eine er- 
ste und eine zweite Mehrzahl von Ergebnisdatenele- 20 
menten zu erzeugen, indem 

eine von einem einzelnen Makrobefehl spezifizierte 
Operation an zumindest einem Paar einander entspre- 
chender Datenelemente in der ersten und der zweiten 
Mehrzahl entsprechender Datenelemente durchgeftihrt 25 
wird, urn zumindest ein Ergebnisdatenelement der er- 
sten und zweiten Mehrzahl von Ergebmsdatenelemen- 
ten zu erzeugen, und 

die verbleibenden Ergebnisdatenelemente der ersten 
und zweiten Mehrzahl von Ergebnisdatenelementen 30 
auf wenigstens einen vorgegebenen Wert gesetzt wer- 
den, und 

die erste und zweite Mehrzahl von Ergebnisdatenele- 
menten in einem einzigen logischen Register als dritter 
gepackter Datenoperand gespeichert werden. 35 

7. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine voigegebene Wert Werte 
der Datenelemente von entweder dem ersten gepackten 
Datenoperanden oder dem zweiten gepackten Daten- 
operanden umfaBt. 40 

8. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert Null ist. 

9. Verfahren nach Anspruch 6, dadurch gekennzeich- 
net, daB der wenigstens eine vorgegebene Wert eine 
Keine-Zahl(NaN)-Anzeige ist. 45 
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